Categorización de texto sensible al coste para el filtrado de contenidos inapropiados en Internet
نویسندگان
چکیده
The access to inapropiate Internet content is an increasing problem that can be approached as a cost-sensitive Automated Text Categorization task. In this paper, we report a series of experiments that compare a representative range of learning algorithms and methods for making them cost-sensitive, on two Web pages collections in Spanish and English. The results of our experiments are promising.
منابع مشابه
Personalización estructural basada en criterios de usabilidad
El filtrado personalizado en aplicaciones Web consiste básicamente en la selección un subconjunto de los elementos de un gran conjunto de objetos, de acuerdo a las características del usuario. Las técnicas más habituales para realizarlo, como son el filtrado basado en contenidos o el basado en las preferencias de grupos, utilizan de manera directa o indirecta información sobre el dominio de la ...
متن کاملBuscadores de Contenidos para Bibliotecas Digitales: Desarrollo de una Arquitectura para un Buscador XML
Resumen. El gran crecimiento del volumen de datos en las bibliotecas digitales hace necesario el desarrollo de buscadores de información que permitan al usuario encontrar rápida y eficazmente aquello que requieren. El etiquetado XML de los textos permite incorporar información estructural en los contenidos digitales. Las enormes posibilidades de explotación de estos contenidos hacen posibles se...
متن کاملX-Flow: Gestión de flujo de contenidos multilingües sobre XLIFF y TMX
El objetivo general del proyecto X-Flow es facilitar la gestión del flujo (Fisher, 2003) de contenidos multilingües en las distintas fases de desarrollo en proyectos de traducción y localización, con el fin de optimizar los recursos, especialmente en los sistemas de información y publicación en Internet. La localización es el proceso por el cual se adapta una aplicación a los requerimientos loc...
متن کاملDesarrollo de un entorno virtual para la inducción emocional
Los entornos virtuales se han mostrado de gran ayuda en las técnicas de inducción emocional planteadas por la psicología clínica. Sin embargo la complejidad, el coste y el acceso a las tecnologías a menudo han supuesto un obstáculo considerable para desarrollar este tipo de herramientas. Aprovechando las el incremento de las herramientas y tecnologías que dan soporte a la creación de este tipo ...
متن کاملLos proyectos SINAMED e ISIS: Mejoras en el Acceso a la Información Biomédica mediante la integración de Generación de Resúmenes, Categorización Automática de Textos y Ontologías
Los sistemas inteligentes de acceso a la información están integrando de manera creciente técnicas de minería de texto y de análisis del contenido, y recursos semánticos como las ontologías. En los proyectos ISIS y SINAMED juegan un papel central la utilización de categorización de texto, la extracción automática de resúmenes y las ontologías, para la mejora del acceso a la información en un do...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- Procesamiento del Lenguaje Natural
دوره 31 شماره
صفحات -
تاریخ انتشار 2003